Các ván AlphaGo_đấu_với_Lee

Các ván AlphaGo_đấu_với_Lee_Sedol

Trận đấu được tổ chức theo thể thức đấu 5 ván với giải thưởng lớn là 1 triệu USD,[3] sử dụng Luật Trung Quốc với 7.5 điểm komi.[4] Trong mỗi ván, mỗi người chơi có một khoảng thời gian là 2 giờ cho các nước đi, sau đó là giai đoạn byo-yomi, mỗi người chơi có 60 giây để đưa ra mỗi nước đi, không được phép vượt quá 60 giây quá ba lần.[4] Mỗi ván đấu bắt đầu vào 13:00 KST (04:00 GMT).[37]

Trận đấu được tổ chức tại Four Seasons Hotel ở Seoul, Hàn Quốc vào tháng 3 năm 2016 và được quay truyền hình trực tiếp với phần bình luận của Michael Redmond (9-dan chuyên nghiệp) và Chris Garlock.[38][39][40] Aja Huang, một thành viên của đội ngũ DeepMind và là một kì thủ cờ vây nghiệp dư 6-dan, phụ trách việc đặt quân cờ bàn cờ vây cho AlphaGo, được chạy thông qua nền tảng điện toán đám mây Google Cloud Platform với máy chủ đặt tại Mỹ.[41]

Tổng kết

Ván	Ngày	Quân đen	Quân trắng	Kết quả	Số nước đi
1	9 tháng 3 năm 2016	Lee Sedol	AlphaGo	Lee Sedol chịu thua	186 (Ván thứ nhất)
2	10 tháng 3 năm 2016	AlphaGo	Lee Sedol	Lee Sedol chịu thua	211 (Ván thứ hai)
3	12 tháng 3 năm 2016	Lee Sedol	AlphaGo	Lee Sedol chịu thua	176 (Ván thứ ba)
4	13 tháng 3 năm 2016	AlphaGo	Lee Sedol	AlphaGo chịu thua	180 (Ván thứ tư)
5	15 tháng 3 năm 2016	Lee Sedol[ct 1]	AlphaGo	Lee Sedol chịu thua	280 (Ván thứ năm)
Kết quả: AlphaGo 4 – 1 Lee Sedol
^ chú thích 1: Trong ván thứ 5, theo các quy định chính thức, người ta dự định rằng sự lựa chọn màu sắc sẽ được thực hiện một cách ngẫu nhiên.[42] Tuy nhiên, trong cuộc họp báo sau ván đấu thứ tư, Lee yêu cầu "... từ khi tôi thắng với quân trắng, tôi thực sự tin rằng ván thứ năm này tôi có thể thắng với quân đen, vì chiến thắng với quân đen đáng giá hơn nhiều."[43] Hassabis đồng ý với đề xuất của anh.

Ván thứ nhất

AlphaGo (trắng) thắng ván đầu tiên. Lee giành quyền kiểm soát trong hầu hết ván đấu, nhưng AlphaGo đạt được lợi thế trong 20 phút cuối cùng và Lee chịu thua.[44] Lee nói sau đó rằng anh đã phạm phải một sai lầm nghiêm trọng ở khai cuộc; anh nói rằng chiến lược của máy tính trong giai đoạn đầu của ván đấu là "tuyệt vời" và rằng AI đã thực hiện một nước đi bất thường mà không có người chơi cờ vây là con người nào sẽ thực hiện điều đó.[44] David Ormerod, nhận xét về ván đấu trên Go Game Guru, mô tả nước đi thứ bảy của Lee như "một nước lạ để kiểm tra sức mạnh của AlphaGo trong giai đoạn khai cuộc", biểu thị đặc trưng của nước đi này như một lỗi sai và phản ứng của AlphaGo là "chính xác và hiệu quả". Ông mô tả vị trí quân cờ của AlphaGo tỏ ra thuận lợi trong phần đầu của trận đấu, xem xét rằng Lee bắt đầu quay trở lại với nước thứ 81, trước khi thực hiện những nước "có vấn đề" tại nước thứ 119 và 123, tiếp nối với một nước "thua cuộc" ở nước thứ 129.[45] Kì thủ cờ vây chuyên nghiệp Cho Hanseung nhận xét rằng ván đấu của AlphaGo đã được cải thiện đáng kể từ khi nó đánh bại Phiền Huy vào tháng 10 năm 2015.[45] Michael Redmond mô tả ván đấu của máy tính này là căng thẳng hơn so với lần đối đầu với Phiền.[46]

Theo kì thủ cờ vây kì cựu 9-dan Kim Seong-ryong, Lee dường như bị kinh ngạc bởi nước đi mạnh mẽ của AlphaGo ở nước thứ 102.[47] Sau khi AlphaGo đi nước thứ 102 của ván đấu, Lee đã nghiền ngẫm những lựa chọn của mình trong hơn 10 phút.[47]

99 nước đầu

Nước 100–186.

Ván thứ hai

AlphaGo (đen) thắng ván thứ hai. Lee sau đó nói rằng "AlphaGo đã chơi một ván đấu gần như hoàn hảo",[48] "ngay từ những nước đầu của ván đấu, tôi đã không cảm thấy có một thời điểm nào mà tôi đang dẫn trước".[49] Một trong những người sáng tạo ra AlphaGo, Demis Hassabis, nói rằng hệ thống đã tự tin vào một chiến thắng từ nửa sau của ván đấu, mặc dù các nhà bình luận chuyên nghiệp không thể cho biết được ai đang dẫn trước.[49]

Michael Redmond (9p) lưu ý rằng quân thứ 19 của AlphaGo (nước thứ 37) là "sáng tạo" và "độc đáo".[29] Lee mất một thời gian dài bất thường để phản ứng với nước đi.[29] An Younggil (8p) gọi nước thứ 37 của AlphaGo là "một nước đâm vai (shoulder hit) hiếm và có toan tính" nhưng nói rằng nước phản công của Lee là "tinh tế". Ông nói rằng sự kiểm soát đó được đối đáp qua lai giữa hai bên một vài lần trước khi thu quan, và đặc biệt ca ngợi nước thứ 151, 157 và 159 của AlphaGo, gọi chúng là những nước đi "sáng chói".[50]

AlphaGo cho thấy những sự dị thường và các nước đi từ một góc nhìn rộng hơn, mà các kì thủ cờ vây chuyên nghiệp mô tả là trông như nước đi sai lầm ở cái nhìn đầu tiên, nhưng là một chiến lược có chủ định trong nhận thức.[51] Như một trong những người sáng tạo của hệ thống giải thích, AlphaGo không cố gắng tối đa hóa điểm hoặc số đất chiến thắng của mình, nhưng sẽ cố gắng phát huy tối đa khả năng chiến thắng của mình.[29][52] Nếu AlphaGo phải lựa chọn giữa một kịch bản mà nó sẽ giành chiến thắng với khoảng cách 20 mục với xác suất 80% và một kịch bản khác mà nó sẽ thắng một mục rưỡi với xác suất 99%, nó sẽ chọn lựa chọn sau, ngay cả khi phải từ bỏ điểm số của mình để đạt được.[29] Đặc biệt, nước thứ 167 bởi AlphaGo có vẻ như tạo cho Lee một cơ hội đối đầu và được các bình luận viên quả quyết rằng có vẻ như là một sai lầm rõ ràng. An Younggil nói "Vì vậy, khi AlphaGo đi một nước đi có vẻ như chùng xuống, chúng ta có thể coi đó là một sai lầm, nhưng có lẽ nó nên được nhìn nhận chính xác hơn như là một lời tuyên bố chiến thắng?"[53]

99 nước đầu

Nước 100-199

Nước 200-211

Ván thứ ba

AlphaGo (trắng) thắng ván thứ ba.[54]

Sau ván thứ hai, vẫn còn có những nghi ngờ mạnh mẽ giữa các kì thủ nếu như AlphaGo thật sự là một kì thủ con người mạnh mẽ trong ý nghĩ rằng một con người có thể đạt tới trình độ đó. Ván đấu thứ ba được mô tả là đã loại bỏ hoàn toàn nghi ngờ này; với nhận xét của các nhà phân tích:

AlphaGo đã chiến thắng một cách thuyết phục, như để loại bỏ mọi nghi ngờ về sức mạnh của mình trong tâm trí của các kì thủ có kinh nghiệm. Thực tế, nó đã chơi rất tốt đến mức gần như đáng sợ... Trong việc buộc AlphaGo chịu một cuộc tấn công một chiều rất nghiêm trọng, Lee đã làm bộc lộ sức mạnh cho đến nay vẫn không bị phát hiện của nó... Lee đã không giành được đủ lợi thế từ cuộc tấn công của mình... Một trong những bậc thầy vĩ đại nhất của trung cuộc vừa trở nên vượt trội hơn hẳn trong sự rạch ròi trắng đen.[53]

Theo An Younggil (8p) và David Ormerod, ván đấu cho thấy rằng "AlphaGo đơn thuần mạnh hơn bất kì người chơi cờ vây là con người nào từng được biết đến."[53] AlphaGo đã cho thấy việc có thể điều hướng các tình huống phức tạp được gọi là kō mà không xuất hiện trong hai ván đấu trước.[55] An và Ormerod xem xét nước thứ 148 đặc biệt đáng chú ý: ở giữa một cuộc chiến ko phức tạp, AlphaGo biểu thị sự "tự tin" vừa đủ rằng nó đã chiến thắng cuộc chiến để đi một nước lớn ở vị trí khác.[53]

Lee, cầm quân đen, khai cuộc với bố cục Đại Trung Quốc (High Chinese) và tạo ra một khu vực ảnh hưởng rộng lớn của quân đen, mà AlphaGo xâm lược ở nước thứ 12. Điều này đòi hỏi chương trình phải bảo vệ một nhóm quân yếu, mà nó đã thành công.[53] An Younggil mô tả nước đi thứ 31 của Lee có thể là "nước thua cuộc"[53] và Andy Jackson của Liên đoạn cờ vây Hoa Kỳ cho rằng kết quả đã được quyết định bởi nước thứ 35.[52] AlphaGo đã giành quyền kiểm soát ván đấu bằng nước thứ 48, và buộc Lee vào thế phòng thủ. Lee phản công tại nước thứ 77/79, nhưng phản ứng của AlphaGo tỏ ra hiệu quả và nước thứ 90 của nó đã thành công trong việc đơn giản hóa vị trí này. Sau đó nó đã giành được một vùng chiếm đóng rộng lớn ở phía dưới bàn cờ, củng cố vị thế của mình với những nước từ 102 tới 112, được mô tả bởi An bẳng cụm từ "phức tạp".[53] Lee tấn công một lần nữa ở các nước 115 và 125, nhưng những phản ứng của AlphaGo lại hiệu quả thêm một lần nữa. Lee cuối cùng đã cố gắng tổ chức một trận đấu kiếp ko phức tạp từ nước thứ 131, mà không buộc được chương trình phạm bất kì sai lầm nào, và anh chịu thua tại nước thứ 176.[53]

99 nước đầu

Nước 100-176 (122 ở 113,
154 ở , 163 ở 145, 164 ở 151,
166 and 171 ở 160, 169 ở 145, 175 ở )

Ván thứ tư

Lee (trắng) thắng ván thứ tư. Theo Demis Hassabis của DeepMind, AlphaGo đã phạm phải một lỗi sai ở nước thứ 79, lúc đó nó đã ước tính có một cơ hội 70% để giành chiến thắng. Tại nước thứ 87, chỉ số ước tính của chương trình đột nhiên giảm mạnh.[56][57] David Ormerod mô tả đặc trưng của các nước đi từ 87 tới 101 như điển hình của những lỗi của các phần mềm dựa trên Monte Carlo.[58]

Lee chọn chơi một loại chiến lược cực đoan, được biết với tên gọi amashi, để đáp trả sở thích rõ ràng của AlphaGo cho Sōba Go (cố gắng giành chiến thắng bằng nhiều lợi thế nhỏ khi có cơ hội), chiếm lấy lãnh thổ ở biên thay vì trung tâm.[58] Bằng cách này, mục đích rõ ràng của anh là để buộc ván đấu bước vào một dạng tình huống "được ăn cả ngã về không" đặc trưng — một điểm yếu khả thi đối với một đối thủ mạnh ở các cách chơi đổi quân, và một trong số đó có thể khiến năng lực quyết định lợi thế ít ỏi của AlphaGo không thích hợp nếu xét trên tổng thể.[58]

11 nước đi đầu tiên cũng giống như ván đấu thứ hai, khi Lee cũng cầm quân trắng. Trong khai cuộc, Lee tập trung vào việc chiếm lãnh thổ ở các cạnh và góc của bàn cờ, cho phép AlphaGo đạt được ảnh hưởng ở phía trên và trung tâm bàn cờ. Lee sau đó xâm chiếm khu vực ảnh hưởng của AlphaGo ở phía trên với các nước từ 40 tới 48, tiếp nối sau đó với chiến lược amashi. AlphaGo phản ứng với một nước đâm vai tại nước thứ 47, sau đó hy sinh bốn quân ở vị trí khác, và giành được thế chủ động với những nước từ 47 tới 53 và 69. Lee thử AlphaGo bằng những nước từ 72 tới 76 mà không phạm sai lầm, và tại thời điểm này của ván đấu, các nhà bình luận bắt đầu cảm thấy một khả năng thua cuộc dành cho Lee. Tuy nhiên, một nước đi quân trắng ở nước thứ 78, được mô tả là "một tesuji sáng chói", cũng như một nước mạnh mẽ tiếp theo của quân trắng tại nước thứ 82 đã hoàn toàn làm đảo chiều ván đấu.[58] Nước đi này đã phát triển một vùng đệm cho quân trắng ở trung tâm và làm tăng độ phức tạp của ván đấu.[59] Phản ứng ban đầu của AlphaGo ở các nước thứ 83 tới 85 là thích hợp, nhưng tình hình sau đó khiêu khích AlphaGo thực hiện các nước đi rất tệ để đáp trả từ nước thứ 87 tới 101. Lee vượt lên dẫn trước với nước thứ 92, và An Younggil mô tả nước thứ 105 của quân đen như nước thua cuộc cuối cùng. Mặc dù có chiến thuật tốt trong quá trình thực hiện các nước đi từ 131 tới 141, AlphaGo cho thấy việc không thể cứu vãn trong thu quan và chịu thua.[58] Sự chịu đầu hàng của AlphaGo đã được kích hoạt khi nó đánh giá cơ hội của mình để chiến thắng ít hơn 20%; tính năng này được thiết kế để phù hợp với quyết định của các kì thủ chuyên nghiệp mà chịu thua còn hơn chơi tới cuối ván khi vị trí quân của họ tỏ ra không thể cứu được nữa.[59]

Kì thủ 9 dan chuyên nghiệp người Trung Quốc Cổ Lực mô tả nước thứ 78 của quân trắng như một "nước đi thần thánh" và cho biết rằng nước đi này đã hoàn toàn không được anh lường trước.[58] An Younggil trên Go Game Guru đã kết luận rằng ván đấu như "một kiệt tác bởi Lee Sedol và sẽ gần như chắc chắn trở thành một ván đấu nổi tiếng trong lịch sử của cờ vây".[58] Lee nhận xét sau trận đấu rằng anh cảm thấy AlphaGo mạnh nhất khi cầm quân trắng (đi sau).[60] Vì lý do này, anh yêu cầu được cầm quân đen trong ván thứ năm, việc được coi là rủi ro hơn.

David Ormerod của Go Game Guru nói rằng mặc dù vẫn chưa có một phân tích nào về cách chơi của AlphaGo trong khoảng nước đi từ 79–87 tại thời điểm đó, ông tin rằng đó là một kết quả của một điểm yếu được biết đến trong các thuật toán chơi cờ sử dụng phương pháp duyệt cây Monte Carlo. Về bản chất, phương pháp tìm kiếm này cố gắng để tỉa các trình tự ít có liên quan. Trong một vài trường hợp, một nước đi có thể dẫn đến một chuỗi các nước đi vô cùng cụ thể đóng vai trò quan trọng, nhưng được bỏ qua khi cây được tỉa, và do đó kết quả này đã "tắt radar tìm kiếm".[61]

99 nước đầu

Nước 100-180 (177 ở , 178 ở )

Ván thứ năm

AlphaGo (trắng) thắng ván thứ năm.[62] Trận đấu được mô tả là khá sít sao. Hassabis nói rằng kết quả hiện rõ sau khi chương trình phạm phải một "sai lầm tồi tệ" ở đầu ván đấu.[62]

Lee, cầm quân đen, khai cuộc với một hình cờ tương tự với ván đầu tiên và sau đó bắt đầu khoanh vùng lãnh thổ ở biên phải và góc trên bên trái – một chiến thuật tương tự với chiến thuật mà anh đã sử dụng thành công trong ván thứ tư – trong khi AlphaGo đạt được ảnh hưởng tại trung tâm bàn cờ. Ván đấu tiếp tục kể cả cho đến khi quân trắng thực hiện các nước đi từ 48 tới 58, khi mà AlphaGo chơi ở góc dưới bên phải. Những nước đi này khiến quân trắng thất thế một cách không cần thiết trong các cuộc đấu kiếp và aji, cho phép Lee vươn lên dẫn trước.[63] Michael Redmond (9p) đã dự đoán rằng có lẽ AlphaGo đã quên mất "cú đè của bia mộ" tesuji của quân đen. Con người được dạy để nhận ra những hình cờ cụ thể, nhưng đó là một chuỗi vô vàn các nước đi nếu phải được tính toán từ đầu.

AlphaGo sau đó bắt đầu phát triển vùng phía trên bàn cờ cũng như phần trung tâm, và phòng thủ một cách xuất sắc trước một đợt tấn công của Lee từ nước thứ 69 tới 81, mà David Ormerod nêu bật điểm đặc trưng của nó là quá thận trọng. Ở nước thứ 90 của quân trắng, AlphaGo đã lấy lại thế cân bằng, và sau đó thực hiện một loạt nước đi mà theo mô tả của Ormerod là "bất thường... nhưng ấn tượng một cách tinh tế" giúp nó giành được một chút lợi thế. Lee đã thử một nỗ lực liều lĩnh muộn màng với các nước thứ 167 và 169, nhưng sự phòng thủ của AlphaGo đã thành công. An Younggil chú thích nước thứ 154, 186 và 194 của quân trắng là đặc biệt mạnh mẽ, và chương trình thực hiện một phần thu quan hoàn hảo, duy trì thế dẫn trước cho tới khi Lee chịu thua.[63]

99 nước đầu

Nước 100-199 (118 ở 107, 161 ở )

Nước 200-280 (240 ở 200, 271 ở ,
275 ở , 276 ở )